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文本 分 类 技术 在 报 业 智能 客服 系统 中 的 应 用 
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摘 要 : 作为 主流 媒体 的 新 闻 报 刊 业 ， 从 广告 办 理 、 报 纸 印 刷 、 发 行 订 报到 新 闻 报 料 ， 每 天 接收 和 处 理 的 客户 信息 量 都 巨大 。 
近年 来 ， 随 着 人 力 成 本 的 日 益 增 长 ， 传 媒 行 业 对 可 以 大 幅 减 轻 人 工 客服 工作 量 的 智能 客服 系统 的 需求 也 日 益 连 切 。 本 文 从 提 
高 报 业 行业 人 工 智 能 客服 系统 的 准确 率 和 效率 的 目的 出 发 ， 对 问 句 分 类 技术 进行 了 深入 研究 ， 主 要 使 用 快速 文本 分 类 算法 
( fastText ) 来 实现 对 问 句 的 分 类 。 实 验 表 明 ， 与 传统 的 SVM+TF、BERT+SVM 相 比 ， 该 算法 能 够 很 好 的 兼顾 系统 的 查询 准 
确 度 和 查询 的 时 间 开 销 以 满足 用 户 的 查询 准确 率 和 速率 的 需求 。 
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1. 智能 客服 系统 的 概念 

智能 客服 系统 是 一 个 涉及 多 种 先进 技术 的 综合 体 ， 
例如 : 大 规模 知识 处 理 技术 、 自 然 语 言 理解 技术 、 知 识 
管理 技术 、 自 动 问答 系统 、 推 理 技术 等 ， 不 仅 为 企业 提 
供 了 细 粒 度 知识 管理 技术 ， 还 为 企业 与 海量 用 户 之 间 的 
沟通 建立 了 一 种 基于 自然 语言 的 快捷 有 效 的 技术 手段 ; 
同时 还 能 够 为 用 户 提供 精细 化 管理 所 需 的 统计 分 析 信息 。 
2. 发 展 背景 

随 着 多 媒体 技术 的 不 断 成 熟 ， 多 媒体 信息 接 人 渠道 
从 传统 的 网 点 、 电 话 、 网 站 、 邮 件 到 即时 通信 、 微 博 、 
微 信 等 不 断 涌 现 ， 网 络 信息 呈现 出 碎片 化 、 移 动 化 、 实 
时 化 、 个 性 化 、 多 媒体 化 、 大 数据 化 的 特点 。 这 些 变化 
给 信息 管理 和 服务 带 来 全 新 的 挑战 ， 报 业 传统 的 客服 系 
统 已 经 满足 不 了 大 众 的 服务 需求 。 

与 此 同时 ， 人 工 智能 领域 的 智能 机 器 人 技术 发 展 迅 
速 , 对 生产 生活 方式 产生 革命 性 的 影响 。 针 对 报 业 领域 ， 
考虑 到 目前 互联 网 信息 爆炸 式 增 长 现状 ， 使 用 智能 机 器 
人 技术 可 以 大 幅 减少 人 工 客 服 的 工作 量 ， 有 效 提高 信息 
处 理 效率 。 因 此 ， 智 能 机 器 人 应 用 到 报 业 客服 服务 中 已 
成 为 必然 趋势 。 

3. 相关 工作 

近 几 年 来 ， 文 本 分 类 技术 被 广泛 的 应 用 在 智能 客服 
系统 中 。 传 统 的 分 类 算法 有 多 层 感 知 器 、 朴 素 贝 叶 斯 和 
支持 向 量 机 (SVM ) 等 ， 其 中 SVM 是 一 类 按 监督 学 习 方 
式 对 数据 进行 二 元 分 类 的 广义 线性 分 类 器 。 其 优点 是 在 
优化 问题 的 同时 考虑 了 经 验 的 风险 和 结构 风险 最 小 化 ， 
因此 具有 一 定 的 稳健 性 ， 而 贸 链 损失 函数 的 取 值 特点 使 
SVM 具有 稀 玻 性 。 缺 点 是 超过 一 定量 的 数据 时 ， 训 练 的 
时 间 呈 指数 增长 。 因 此 ， 当 数据 集 的 量 过 大 时 ， 传 统 的 
分 类 算法 就 不 具有 优势 ， 反 正成 为 了 降低 其 运算 效率 的 
最 主要 原因 。 


大 数据 时 代 的 到 来 使 得 深度 学 习 的 分 类 算法 快速 发 
展 ， 例 如 TextCNN 是 由 Yoon Kim 在 2014 提出 的 ， 它 的 
结构 和 图 像 处 理 的 过 程 非常 相似 ， 是 由 一 个 卷 积 层 和 一 
个 最 大 池 化 层 组 合 的 结构 ， 输 入 是 一 个 词 向 量 矩 阵 ， 卷 
积 层 使 用 不 同 宽度 的 卷 积 核 在 整个 句子 长 度 上 滑动 ， 得 
到 nm 个 激活 值 ， 然 后 再 通过 最 大 池 化 层 得 到 m 个 特征 值 
组 成 的 feature map 来 供 后 级 分 类 器 作为 分 类 的 依据 。” 

在 速度 要 求 特别 高 的 场景 中 ，fastText 的 算法 是 一 个 
不 错 的 选择 , 它 不 仅 能 保证 以 较 高 的 速度 完成 模型 训练 ， 
还 能 保证 模型 的 精度 。 本 文 研究 使 用 fastText 作为 智能 
客服 系统 中 的 领域 分 类 器 ， 并 与 传统 的 分 类 算法 做 对 比 
实验 。 

4. 快速 文本 分 类 算法 ( fastText ) 

该 种 分 类 算法 的 一 个 简单 而 有 效 的 基准 是 将 句子 表 
示 为 单词 袋 ， 并 且 可 将 一 篇 媒体 报道 中 的 单词 送 入 一 个 
线性 分 类 需 中 ， 并 训练 该 线性 分 类 器 。 然 而 ， 线 性 分 类 
器 不 能 在 特征 和 类 之 间 共 享 参数 ， 这 可 能 限制 了 泛 化 。 
这 个 问题 的 常见 解决 办 法 是 将 线性 分 类 器 分 解 为 低 秩 和 矩 
阵 或 使 用 多 层 神 经 网 络 。 使 用 神经 网 络 ， 可 以 通过 隐藏 
层 来 共享 信息 。fastText 方法 包含 三 部 分 ， 即 模型 架构 、 
层次 softmax 和 N-gram 寺 征 。fastText 方法 将 单词 序列 作 
为 输入 ， 通 过 利用 softmax 函数 来 对 单词 类 别 的 概率 分 布 
情况 进行 预测 ， 这 是 一 种 使 用 随机 梯度 下 降 和 反 向 传播 
进行 模型 训练 的 方法 。 

4.1 模型 架构 

fastText 的 模型 架构 和 word2vecm 中 的 CBOW 模型 的 
结构 相似 。CBOW 模型 是 利用 上 下 文 来 预测 中 间 词 ， 而 
fastText 是 利用 上 下 文 来 预测 文本 的 类 别 。 而 且 从 本 质 上 
来 说 , word2vec 是 属于 无 监督 学 习 ,fastText 是 有 监督 学 习 。 
但 两 者 都 是 三 层 的 网 络 ( 输入 层 、 单 层 隐藏 层 、 输 出 层 ) ， 
具体 的 模型 结构 如 下 。 


So 
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图 1 fastText 模型 结构 


图 中 Xi 表示 的 是 文本 中 第 i 个 词 的 特征 向 量 。 该 模 
型 将 一 系列 单词 作为 输入 并 产生 一 个 预定 义 类 的 概率 分 
布 ， 且 在 多 个 CPU 上 以 异步 方式 进行 训练 ， 所 以 训练 的 
速度 非常 快 。 然后 通过 一 个 softmax 方程 来 计算 这 些 概率 ， 
以 霍 夫 曼 编 码 树 来 建立 方程 ， 树 中 的 每 个 节点 都 与 从 根 
节点 到 该 节点 的 路 径 概率 相关 联 ， 公 式 如 下 。 


poi+D=] | _ zco 

可 以 看 出 , 某 个 节点 的 概率 是 小 于 其 父 节点 概率 的 ， 
对 整个 替 夫 曼 编 码 树 进 行 深度 优先 搜索 并 找到 节点 之 间 
的 最 大 概率 ， 这 样 就 能 够 通过 舍弃 一 些小 概率 分 支 来 降 
低 复 杂 度 。 
4.2 分 层 softmax 

当 数 据 的 类 别 很 多 时 ， 线 性 分 类 器 的 计算 量 将 会 
增 。 其 计算 复杂 度 为 0W4) ， 其 中 是 分 类 的 数量 ，d 是 
隐藏 层 的 维度 。 为 了 降低 计算 量 ， 该 模型 使 用 了 一 个 基 
于 霍 夫 曼 编 码 树 的 分 层 softmax ( 而 非 遍 平 式 架 构 ) ， 它 
属于 逻辑 回归 在 处 理 多 类 别 任务 上 的 推广 。 不 同 的 类 别 
被 整合 进 树 形 结构 中 ， 同 时 也 考虑 到 类 别 不 均衡 ( 一些 
类 别 出 现 次 数 更 多 ) 的 现象 。 根据 图 2 示意， 叶子 节 


点 由 底部 个 不 同 的 类 标 组 成 ，K-1 个 内 部 节点 作为 内 
部 参数 ， 其 公式 表示 如 下 : 


py) = 00 (fa, + 1) =1c (ny,)) one 3 


n(Y2,1) 


n(Y2,2) 


n(Y2,3) 


Y1 Y2 Y3 Y4 Yk-1 YK 


图 2 分 层 softmax 示例 图 


通过 使 用 霍 夫 曼 编码 树 建立 用 于 表征 类 别 的 树 形 
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结构 ， 因 此 ， 频 繁 出 现 类 别 的 树 形 结构 的 深度 要 比 不 频 
繁 出 现 类 别 的 树 形 结构 的 深度 要 小 ， 这 也 进一步 的 提高 
了 计算 效率 。 在 训练 过 程 中 ， 计 算 的 复杂 度 会 下 降 到 
Ol(d log,(N) 。 

4.3 N-gram 特征 

不 管 是 文本 分 类 还 是 句子 分 类 ， 常 用 的 特征 是 词 袋 
模型 。 但 词 袋 模型 不 能 考虑 词 之 间 的 顺序 ， 因 此 该 模型 
还 加 入 了 N-gram 特征 ， 其 基本 思想 就 是 将 客户 咨询 的 文 
本 内 容 按 照 字 节 进行 大 小 为 N 的 滑动 窗口 操作 ， 从 而 得 
到 多 个 长 度 为 N 的 字 节 片段 序列 。 并 且 为 了 提高 效率 ， 
还 需 过 波 掉 低频 的 N-gram， 按 照 事 先 设 定好 的 阔 值 形成 
关键 列表 。M 通 过 N-gram 获取 局 部 词 序 信息 ， 其 用 于 评 
佑 顾客 咨询 的 语句 是 否 合理 ， 从 而 能 够 更 加 平衡 获取 词 
序 信 息 及 计算 资源 。 

在 实际 报 业 智能 客服 应 用 中 ， 客 户 咨询 产生 的 大 量 
文本 数据 ， 在 对 其 进行 分 类 时 ，N-gram 处 理 后 生成 的 词 
条 会 存在 大 量 元 余 , 因此 必须 对 处 理 后 的 词语 进行 重 构 ， 
区 分 出 客户 实际 想 要 咨询 的 问题 ， 在 此 过 程 中 ， 也 能 够 
学 习 到 更 多 词语 与 词语 之 间 的 前 后 关联 特征 。 在 对 词语 
进行 重 构 的 过 程 中 ， 不 考虑 客户 所 表述 词语 的 语法 和 词 
序 之 间 的 关系 ， 也 就 是 每 个 词 都 是 相对 独立 的 ， 然 后 对 
比 词 袋 中 的 词 条 和 N-gram 处 理 后 的 结果 ， 最 后 将 文本 词 
袋 中 没有 而 N-gram 处 理 后 存在 的 词 条 删除 。 

5. 实验 结果 及 分 析 

在 本 节 中 ， 将 使 用 fastText 与 传统 的 SVM+TF 和 
SVM+BERT ( 使 用 BERM 提取 词 向 量 ) 做 对 比 实验 。 主 
要 的 目的 是 体现 fastText 在 数据 量 足 够 多 时 以 及 分 类 的 类 
别 比 较 多 的 情况 下 的 优势 。 

5.1 二 分 类 

采用 智能 客服 系统 线 上 数据 做 训练 和 测试 ， 数 据 的 
类 别 有 两 类 ， 即 闲聊 和 服务 咨询 。 首 先 对 线 上 数据 进行 
预 处 理 ， 预 处 理 的 目的 主要 是 去 除 不 符合 条 件 的 数据 。 
预 处 理 后 ， 从 数据 库 中 得 到 闲聊 和 服务 咨询 各 5 万 条 ， 
实验 时 ， 从 中 选取 1 万 条 测试 数据 。 本 次 测试 以 测试 数 
据 的 准确 率 、 模 型 训练 的 时 间 以 及 ROC 图 (ROC 和 AUC 
是 评价 二 分 类 器 的 指标 ) 作为 二 分 类 模型 评判 的 标准 。 
实验 结果 如 表 1 所 示 : 

表 1 算法 实验 结果 对 比 1 


Method Accuracy Train time (s ) 
SVM+TF 99.81% 9.33 
SVM+BERT 99.47% 1677.89 
fastText 99.60% 13.2 1 


通过 表 1 的 实验 结果 可 以 发 现 SVM+TF 算法 准确 率 
要 略 高 于 其 他 两 种 算法 ， 模 型 训练 的 时 间 要 低 于 其 他 两 
种 算法 。 其 中 SVM+BERT 算法 训练 时 间 太 长 ， 不 适用 于 
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当前 应 用 场景 , 所 以 下 述 实验 不 再 对 比 SVM+BERT 算法 ， 
只 考虑 SVM+TF 和 fastText 算法 ， 对 此 两 者 继续 实验 。 
紧 接着 上 述 实验 ,增加 实验 的 数据 集 ， 对 比 SVM+TF 
和 fastText。 数 据 量 由 原来 的 10 万 增加 到 165 万 , 并 按 9: 
1 的 比例 分 割 训练 集 和 测试 集 。 实 验 结果 如 表 2 所 示 。 
表 2 算法 实验 结果 对 比 2 
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从 上 表 可 以 看 出 ， 无 论 是 从 准确 率 和 模型 训练 时 间 
来 看 ，fastText 算法 都 要 优 于 SVM。 
6. 总 结 

综 上 所 述 ， 在 智能 客服 实际 应 用 中 ， 当 客户 咨询 量 
较 少 或 数据 量 较 少时 , 问题 复杂 度 低 ( 类 别 少 ) 的 情况 下 ， 
SVM 做 分 类 的 效果 要 比 fastText 算法 效果 好 。 但 当 客 户 咨 
询 量 增 大 或 分 类 类 别 变 多 时 ，fastText 做 分 类 就 开始 显示 
出 一 定 的 优势 ， 其 不 但 分 类 效果 好 ， 而 且 速 度 非 常 快 ， 
非常 适合 于 智能 客服 的 应 用 。 这 也 就 意味 着 ， 随 着 当前 


1 一 Score 
Method Accuracy | Train time (s) 
Chat Service 
SVM+TF 99.74% 162.02 98.08% 99.93% 
fastText 99.62% 121:3.:8 99.46% 99.76% 


从 表 2 可 以 得 知 总 体 的 准确 率 都 有 所 提升 ， 而 
fastText 算法 准确 率 要 略 低 于 SVM+TF， 但 其 训练 模型 的 
时 间 要 远 远 低 于 传统 的 SVM+TF 算法 。 从 训练 时 间 的 角 
度 来 看 ，fastText 具有 一 定 的 优势 。 下 图 是 SVM+TF 和 
fastText 算法 的 ROC 图 。 


Validation ROC 


Val AUC (SVM) = 0.934 
— ValAUC (FastText) = 0.949 


00 02 04 06 08 10 
False Positive Rate 


图 3 SVM+TF 和 fastText 算法 的 ROC 图 


从 上 图 中 可 以 得 出 fastText 的 AUC 的 值 要 大 于 SVM 
的 。 综 合 表 2 和 图 3 可 以 得 知 fastText 在 大 数据 量 的 条 件 
下 ， 分 类 效果 和 SVM 基本 一 致 。 

5.2 多 分 类 ( 三 分 类 ) 

SVM 是 一 个 线性 分 类 器 ， 对 于 二 分 类 问题 ， 使 用 
SVM 是 特别 方便 的 ， 但 对 多 分 类 ，SVM 就 不 如 fastText 
方便 。 本 实验 中 , 使 用 SVM 实现 三 分 类 采用 的 是 间接 法 ， 
即使 用 两 个 二 分 类 器 。 将 上 述 数 据 分 为 三 个 类 别 即 闲聊 、 
地 理 服务 和 咨询 。 实 验 结果 如 表 3 所 示 。 


表 3 算法 实验 结果 对 比 3 


下 1 一 Score 
Method | Accuracy | Train time (s) 
Chat Route Qa 
SVM+TF| 99.10% 231.85 98.04% | 99.88% | 99.97% 


fastText 99.71% 115:53 99.69% | 99.38% | 99.72% 


用 户 规 模 的 不 断 上 升 ， 报 业 在 实际 运营 过 程 中 将 面临 更 
多 客户 咨询 问题 ， 因 此 所 产生 的 数据 量 也 呈现 爆发 式 增 
长 ， 因 此 在 未 来 报 业 智能 客服 系统 实际 应 用 中 ， 可 以 选 
择 fastText 算法 进行 建 模 和 尝试 。 
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